DPOP: Optimización directa de preferencias con penalización Descubre cómo DPOP mejora DPO con penalización selectiva. Logra 5.3% más victorias en AlpacaEval 2.0. Ideal para optimización de preferencias. 2026-06-12 · 2 min